라벨이 Cross Entropy인 게시물 표시

Pharos University ME 253 Fluid Mechanics II - ppt video online download

Pharos University ME 253 Fluid Mechanics II - ppt video online download : External External Flows Bodies in motion, experience fluid forces and moments. Examples include: aircraft, automobiles, buildings, ships, submarines, turbo machines. Fuel economy, speed, acceleration, stability, and control are related to the forces and moments. Airplane in level steady flight: drag = thrust & lift = weight.

엔트로피 모두 파헤치기

이미지
엔트로피 모두 파헤치기 엔트로피는 통계, 상태수,자발성 3가지로 표현할 수 있습니다. 여러 군데의 포스팅에서 엔트로피를 불확실성으로 표현합니다. 이에 대한 물리적인 의미를 설명드리고자 포스팅을 진행하게 됐습니다. 또한, 화학공학에서의 엔트로피는 어떻게 개발되고, 응용되었는지 다루고 있습니다. Motivation 통계적인 개념은 머신러닝, 반응공학 등등 실제로도 많은 곳에 쓰이고 있습니다. exponential 함수를 보게된다면 한번쯤은 엔트로피와 관련이 있는지 확인해봐야 합니다. 여기서 exponential 함수는 어떠한 확률이라는 숨은 의미를 가지고 있습니다. 머신러닝의 경우 Activation function (Sigmoid)라고 하죠? 어떠한 상태가 Activate 시키는지에 대한 판단하는 함수로 사용됩니다. 이러한 function도 exponential함수를 바탕으로 하고 있습니다. ​이와 비슷하게 Activate 시킨다는 것은 화학공학에서 반응속도 상수에서 볼 수 있습니다. 반응속도상수의 의미는 확률 * 빈도수 로 말해줍니다. 아레니우스 식에서 exponential 관련 Term이 확률을 의미하고, frequency factor (A)가 빈도수를 나타냅니다. 엔트로피 증가 법칙 - 열역학 제 2법칙 기본적으로 “열역학 제 2법칙으로 무질서도는 증가한다.” 정도는 모두 기억하고 있으실 것입니다. 여기서 무질서도란 기체분자가 어떠한 상태로 놓일 수 있는가 를 말해줍니다. 시작은 자발성의 여부를 판단하기 위해서 시작되었습니다. Rodoulph Clausius는 엔트로피의 개념은 가역적인 열전달에 따른 온도가 어떻게 될지에 대해서 생각해낸 것입니다. 이는 화학공학에서 흔히 알고 있는 최대 열효율의 개념을 설명하기 위해서 시작 된 것입니다. 온도는 분자의 운동량을 표현해주는 지표입니다. 기체의 분자들이 어떻게 운동하는지 알게되면, 우리는 전체 Energy에 대해서 알 수 있습니다. 하지만, 기체 분자의...

강화 학습 - 정책 그레디언트 (Policy Gradient) 및 Cross Entropy; 유도과 정 포함

이미지
정책 그레디언트 (Policy Gradient) 개요 정책 그레디언트 (Policy Gradient,PG) 는 강화 학습에서 최적의 정책을 얻기 위해서 수행된다. 최적의 Policy를 얻기 위해선, 어떠한 목적함수가 요구된다. 이 목적 함수를 보통 Cross Entropy를 통해서 정의를 해준다. 엔트로피에 대한 개념은 여기 를 참조하면 자세히 알 수 있다. 목적함수 – 교차 엔트로피 (Cross Entropy) 교차 엔트로피는 다음의 식으로 정의 된다. H(p,q)= -\sum_i p(x_i)logq(x_i) 여기서 p(x_i) 는 실제 확률 분포를 말하게되고, H(p,q) 값을 최소화 하는 것이 Loss를 최소화 하는 것을 의미합니다. 조금 더 확실하게 하기 위해서, supervised Learning의 경우를 확인해보도록 하겠습니다. 이 경우에는 label이 되어 있어서 확실한 확률 분포 p(x_i) 를 알고 있습니다. 그러면 간단하게 아래와 같이 예시를 만들어 볼 수 있습니다. Cross Entropy 예시 하지만, 강화 학습에서는 labeled 데이터를 사용하는 것이 아닙니다. 이에 p(x_i) 를 대체하기 위하여 새로운 값을 사용하게 됩니다. 이에 Replay와 같은 Episode를 통해 얻어지는 Q(s,a) 값을 통해 구해볼 수 있습니다. 즉, 경험을 통해서 실제 확률 분포를 대체할 수 있음을 말합니다. 이러한 가정들은 강화 학습의 핵심적인 가정사항입니다. 그러면 q에 해당하는 Predictive value는 행동을 위한 정책 확률 분포가 됩니다. 이에 최종적으로 목적 함수는 다음과 같이 쓰게 됩니다. Loss= -Q(s,a)log\pi(s,a), \pi(s,a): Policy 정책 그레디언트 (Policy Gradient) 목적 함수는 Loss를 최소화 하는 것으로 세울 수 있게 됩니다. 전체적인 과정은 다음과 같습니다. 그러면, Loss 함수로 정의했던 목적 함수가 최적의 Policy를 얻는 과정인가에 대한 확인이 요구됩니...

칼만 필터 최적화

이전에 칼만 필터 알고리즘에 대해 다뤘습니다. 오늘은 이에 대한 추가 내용을 다뤄 보고자 합니다. Defense 때문에 공부할 시간이 너무 부족했던 ㅜㅜ… 아무튼, 칼만 필터 최적화 과정은 KL Divergence, Cross Entropy 까지 연관이 되니 매우 중요한 내용이 됩니다. 칼만 필터 최적화 과정 칼만 필터 최적화 과정을 통해, 칼만 필터가 어떻게 Update가 되는지? 어떠한 의미를 가지고 있는지 보여드리고자 합니다. 칼만 게인 먼저, 칼만 게인은 다음과 같이 정의 됩니다. (칼만 필터를 얻는 식) \begin {align}K_k &=\Sigma_0(\Sigma_0+\Sigma_1)^{-1} \\K_k &=P_k^-H^T(HP_k^-H^T+R_k)^{-1} \\\text{ for scalar case } K_k &=\frac{P_k^-H^T}{(HP_k^-H^T+R_k)}\\\end {align} (1)의 컨셉을 가지고, 칼만 게인은 (2)식으로 얻어집니다. 여기서 H가 하나 사라지는 것을 볼 수 있는데, 이는 P_k 식을 구하는 과정에서 약분되기 때문입니다. 식 (2)에서 (3)으로 넘어가는 것은 쉽게 해석을 하기 위함입니다. Matrix보다는 스칼라 값을 이용하는 것이 해석적인 측면에서 매우 유리합니다. 최적화 알고리즘 \begin{align}f(x) &\sim f(x_i)+\braket{\nabla f(x_i),x-x_i} +\frac{1}{2}\braket{x-x_i,H(x-x_i)} \end{align} 여기에서 최소점은 Gradient가 0이되는 포인트가 됩니다. 그러면 최적점 x^* 에 대해서 식 (5)와 같은 Update 방식을 가지게 됩니다. \begin {align}\nabla f(x)&=0= \nabla f(x_i)+ H(x-x_i) \Rightarrow x^*=x_i-H^{-1}\nabla f(x_i)\end{align} 칼만 필터 최적화 칼만 필터는 공분산을 최소화 ...